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摘 要 : 协同 环境 变量 与 机 器 学 习 回 归 模 型 构建 土壤 有 机 质 空 
多 维 变量 闽 的 信息 元 余 和 相关 性 会 导致 模型 训练 时 间 过 长 、 预 测 精度 降低 等 问 
选取 高 程 . 坡 向 坡度 、 剖 本 


有 重要 意义 ,而 
题 。 以 陕西 省 成 阳 市 农耕 区 为 例 ， 


度 指 数 、 年 均 降水 量 、 年 均 气温 、 归 一 化 植被 指数 
nent analysis, PCA) 、 核 主 成 分 分 析 (Kernel principal component analysis , KPCA ) 方 法 特征 提取 基础 


上 ,组 合 随机 森林 (Random forest, RE) , 3c 4E 18] E E 
(K-nearest neighbor , KNN ) 机 器 学 习 模 型 进行 土壤 有 机 质 含量 空间 预测 。 


|i 


司 预测 组 合 模型 对 养分 精准 管理 具 


be PE 


率 、 地 形 起 伏 度 、 地 形 湿 


# 10 个 环境 变量 aaa compo- 


回归 机 (Support vector regression, SVR) .KK 最 近邻 


以 单一 模型 作为 对 照 , 通 


过 计算 模型 决定 系数 (Coefficient of determination, R^) 、 均 方 根 误差 (Root mean square error, RMSE) 


和 相对 绝对 误差 (Relative absolute error, RAE) ,对 不 同 模型 的 预测 
利用 主 成 分 提取 方法 和 机 器 学 习 算 法 构建 组 合 模型 能 
机 质 含量 预测 模型 精度 。KPCA-RF 模 型 对 SOM 含 量 预测 精度 高 于 其 他 模型 R RMSE, RAE 分 只 
X 0.791,1.970 g- kg'' 50.100% ,该 模型 良好 的 预测 


结果 进行 精度 评价 。 结 果 表 明 : 
消除 变量 间 相 关 性 ,一 定 程度 上 提高 土壤 有 


能 力 可 以 为 土壤 有 机 质 含量 的 空间 预测 与 制图 


提供 科学 依据 。 
关 键 词 : 土壤 有 机 质 ; 机 器 学 习 ; 核 主 成 分 分 析 ; RHR; 咸阳 市 
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土壤 有 机 质 (Soil organic matter , SOM ) 是 衡量 
土壤 肥力 与 土壤 质量 的 重要 指标 之 一 ,对 维持 土壤 
ed a 

。 传统 的 土壤 制图 方法 依赖 于 大 量 的 采样 点 数 
NIME Me s 间 分 布 特征 ,这 种 方式 耗费 
大 量 的 人 力 物 力 ,时间 周 期 长 且 精 度 难 以 保证 。 随 
着 新 的 研究 方法 .技术 手段 以 及 认 知 水 平 的 提高 ， 
数字 土壤 制图 成 为 一 种 高 效 表 达 土 壤 空间 分 布 的 
新 方法 ,可 以 获取 精细 土壤 信息 以 便于 指导 农业 
生产 与 田间 管理 。 

数字 土壤 制图 以 土壤 -景观 模型 为 理论 基础 ， 
借助 空间 分 析 和 数学 方法 等 技术 手段 进行 土壤 调 
查 和 可 视 化 的 现代 化 技术 体系 ”。 通 过 选取 与 土壤 
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胡 贵 贵 等 : 基于 主 成 分 和 机 咒 学 习 的 土壤 有 机 质 含量 空间 预测 建 模 


这 些 隶 属 度 确定 未 知 点 的 土壤 属性 ,以 Zhu 等 " 提 
出 的 SoLIM 模 型 作为 代表 ;地 统计 学 模型 以 区 域 化 
变量 理论 为 基础 ,通过 已 知 点 的 空间 依赖 性 预测 未 
知 点 的 变量 值 ”, 如 普通 克 里 格 。 协 同 克 里 格 结合 
了 空间 相关 理论 .要素 间 土 壤 属 性 和 环境 变量 间 协 
同 相 关 性 对 目标 属性 进行 预测 估计 ,一 定 程度 上 能 
提高 土壤 推测 的 精度 ”" ;机 融 学 习 在 处 理 多 维 、 非 线 
性 海量 数据 改善 模型 泛 化 能 力 等 方面 具有 良好 的 
适用 性 ,目前 已 经 被 应 用 到 诸多 领域 的 研究 中 "1。 
尤其 在 展示 土壤 空间 变异 .土壤 养分 空间 预测 方 
面 ,协同 多 源 环境 变量 的 机 器 学 习 方 法 显示 出 较 大 
的 潜力 ,常见 的 模型 包括 随机 森林 (Random forest, 
RF) 7" , Sz FF [n] & HL (Support vector machine, 
SVM) , JC S (Decision tree, DT) "5 、 神 经 网 络 
(Neural networks , NNs ) ' K- 最 近邻 (K-nearest neigh- 
bor, KNN) SE. Curtis 等 ”使 用 逐步 线性 回归 、 决 
策 树 .RF SE 8 PRAET Das I IE EAE 
土壤 氮 需 求 进行 预测 ,结果 发 现 机 器 学 习 模 型 的 预 
测 精度 更 高 ;Tomislav 等 "研究 显示 RE 模型 对 土壤 
属性 的 预测 误差 较 线 性 回归 模型 下 降 了 15%~75%， 
表明 RF 模型 在 非洲 土壤 属性 制图 中 同样 具有 良好 
的 适用 性 ;类 似 的 研究 1 也 表明 机 桥 学 习 模型 较 
传统 线性 模型 能 更 好 地 刻画 土壤 属性 的 空间 变 
异性 。 

机 咒 学 习 模 型 在 数字 土壤 制图 应 用 中 起 步 较 
晚 ,不 同 区 域 下 模型 的 适用 性 和 预测 性 能 仍 需 进 
一 步 研 究 ,其 中 环境 变量 的 选取 也 成 为 研究 的 重 
点 2 。 土 壤 有 机 质 空间 分 布 受 地 形 气候、 植被 和 
人 为 活动 等 多 方面 的 影响 ,通过 探寻 土壤 与 环境 之 
间 的 关系 ,不 断 丰 富 土壤 环境 关系 库 对 数字 土壤 制 
图 具有 重要 的 意义 后 。 地 形 是 影响 土壤 发 育 的 重 
要 因素 之 一 ,通过 调节 土壤 水 分 与 太阳 辐射 的 空间 
再 分 配对 土壤 养分 产生 影响 ,同时 数字 高 程 模型 
(Digital elevation model , DEM ) 提 供 了 高 分 辩 率 的 地 
表 状 况且 易 获 取 ,在 土壤 预测 制图 中 得 到 了 广泛 的 
应 用 ”; 遥 感 影像 提供 了 完整 的 高 精度 的 地 表 反 
射 率 数 据 ,可 通过 反 演 相应 的 盐分 指数 汪 植被 指 
数 “ 来 表征 土壤 属性 地 表 差 异 ; 降 水 量 和 气温 等 气 
候 因子 主要 是 通过 干预 植物 生长 发 育 与 有 机 质 分 
解 影响 土壤 有 机 质 的 空间 分 布 。 此 外 ,人 为 活动 因 
素 由 于 数据 的 获取 难度 较 大 .目前 缺乏 有 效 的 方法 
进行 空间 量化 而 较 少 参与 土壤 养分 预测 制图 。 


随 着 越 来 越 多 的 变量 参与 到 机 融 学 习 模 型 构 
建 中 ,多 维 变量 间 的 信息 宛 余 和 相关 性 导致 模型 训 
练 时 间 加 长 .预测 精度 出 现 偏差 等 问题 。 利 用 主 成 
分 提取 方法 与 机 带 学 习 算法 构建 组 合 模型 是 1 种 可 
行 的 优化 策略 “” , 主 成 分 提取 方法 通常 分 为 线性 
和 非 线性 2 种 ,线性 方法 有 PCA (Principal compo- 
nent analysis ) 、 典 型 相关 分 析 ` 线 性 判别 分 析 等 , 非 
线性 方法 有 KPCA (Kernel principal component analy- 
sis) \ 流 形 学 习 等 。 学 者 们 的 研究 大 多 集中 于 线性 
提取 方法 ,尤其 以 PCA 方 法 最 多 ”” ,组 合 非 线性 方 
法 和 机 带 学 习 模 型 的 研究 相对 较 少 。 本 人 研究 选取 
地 形 、 气 候 、 植 被 3 大 类 共 10 个 环境 变量 作为 输入 
变量 ,在 PCA .KPCA 2 种 主 成 分 特征 提取 的 基础 上 ， 
结合 RF、SVR、KNN 3 个 模型 ,构建 相应 的 组 合 模 
型 ,为 咸阳 市 农耕 区 SOM 含 量 的 空间 模拟 预测 提供 
科学 依据 。 


1 研究 区 概况 及 数据 来 源 


1.1 研究 区 概况 

[DE Pe 4 Ja BA TH (12 FF 107938' 109? 10' E, 34°11’ ~ 
35°32'N 之 间 ,地 处 陕西 关中 平原 腹地 ,东西 跨度 约 
139.7 km, 南北 跨度 约 149.4 km, 总 面积 约 为 
10189.4 km。 咸 阳 市 属于 暧 温带 大 陆 性 季风 气候 ， 
全 年 平均 降水 量 为 537~650 mm ,平均 温度 9.0~ 
13.2 CC。 根 据 地 形变 化 ,全 市 可 分 为 3 个 大 的 地 貌 
分 区 :南部 关中 平原 区 .北部 黄土 高 原 区 和 东北 部 
山地 区 。 受 地 形 条 件 的 影响 ,南北 地 区 热量 条 件 呈 
现 明 显 的 差异 ,年 均 气温 南部 一 般 比 北部 高 4.2 C, 
北部 无 霜 期 为 172~205 d, 南 部 无 霜 期 为 212~223 
d。 境 内 农耕 区 主要 分 布 在 平原 和 高 原 区 域 ,由 于 
东北 部 山区 耕地 较 少 , 故 未 将 该 区 域 纳 入 本 次 的 研 
究 范 围 。 
1.2 数据 来 源 
L2. 土壤 数据 的 采集 参照 研究 区 土壤 特性 .地 
貌 特点 、 作 物 信 息 对 农耕 区 (不 包括 秦 都 区 与 渭城 
区 ) 进 行 样 点 布置 ,结合 农业 部 测 土 配 方 施 肥 技 术 
规范 ,遵循 均匀 性 、 代 表 性 、 多 点 混合 的 原则 进行 采 
样 。 采 样 时 间 为 2017 年 作物 收获 后 ,采用 “S" 形 法 
均匀 随机 取 5 个 点 ,将 各 采样 点 土壤 混 匀 后 用 四 分 
法 留 取 1 kg 土 样 装 袋 ,采样 深度 为 0~20 cm, 同 时 利 
用 GPS 记 录 样 点 的 经 纬度 位 置 , 登 记 土 样 编号 , 记 
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录 土 样 的 种 植 制度 .灌溉 条 件 .产量 等 相关 属性 。 
在 实验 室 经 风干 .研磨 和 过 得 后 ,采用 重 铬 酸 钾 氧 
化 容量 法 测定 SOM 含量 ,并 选用 域 值 法 (3 倍 标准 
差 ) 剔 除 异 常 值 ,最 终 得 到 407 份 有 效 样 点 数据 , 样 
点 分 布 如 图 1 所 示 。 

1.2.2 环境 变量 收集 与 处 理 ” 环 境 变量 包括 地 形 因 
子 气候 因子 .植被 因子 。 地 形 因 子 源 于 从 地 理 空 
间 数 据 云 平台 下 载 的 90m 分 辩 率 数字 高 程 模型 数 
据 ,利用 ArcGIS 10.3 提 取出 研究 区 高 程 (DEM ,XI1)、 
Ji BE (Slope, X2) HK IH] (Aspect, X3) .剖面 曲率 (X4)、 
平面 曲率 (X5) , H6 JE ES TX BE (Relief degree of land 
surface, RDLS , X6) 和 地 形 湿 度 指数 (Topographic 
wetness index,TWI,X7)7 种 地 形 因 子 , 其 中 RDLS 和 
TWI 的 计算 公式 分 别 参见 文献 [27-28]; 从 世界 气 
象 数 据 库 下 载 全 球 多 年 (1970 一 2000 年 ) 月 平均 降 
水 量 (1 一 12 月 ) 和 月 平均 气温 (1 一 12 月 ) 数 据 , 空 间 
分 辨 率 为 1 km。 通 过 栅 格 计算 、 掩 膜 提 取得 到 研究 
区 年 均 降水 量 (X8) 和 年 均 气 温 (X9) 数 据 , 最 后 重 采 
样 将 空间 分 辩 率 转换 为 90 m; 植 被 因子 采用 归 一 化 
植被 指数 (NDVI,X10) ,用 来 反映 农田 植被 生长 状 
Ot, ,使 用 2017 年 7 月 的 Landsat 8 遥感 影像 反 演 提取 
所 得 。 


1.2.3 构建 预测 因子 集合 根据 采样 点 的 空间 位 置 

FLE , AIH ArcGIS 10.3 软件 Spatial analyst 模 块 中 提 
取 分 析 将 10 个 环境 变量 值 提 取 至 每 一 样 点 ,构建 土 
壤 有 机 质 预测 因子 集合 。 


2 方法 与 模型 


2.1 主 成 分 提取 方法 

在 土壤 养分 空间 预测 研究 中 ,加 入 不 同 的 环境 
变量 到 预测 模型 中 能 够 有 效 地 提高 模型 精度 。 但 
不 同 变量 间 往 往 存在 着 较 高 的 相关 性 ,大 量 的 元 余 

言 息 会 导致 模型 精度 出 现 偏差 。 主 成 分 提取 就 是 
将 原 有 变量 的 有 用 信息 集中 在 尽 可 能 少 的 新 的 主 
成 分 变量 中 ,达到 信息 增强 的 目的 。 

PCA 作为 1 种 常见 的 多 元 统计 方法 ,通过 探索 
变量 间 的 线性 关系 ,从 而 实现 将 多 维 变量 综合 成 少 
数 变 量 的 线性 组 合 , 是 进行 数据 降 维 、 模 型 优化 的 1 
种 有 效 手 段 。KPCA 是 1 种 非 线 性 的 特征 提取 方法 ， 
它 的 主要 思想 是 :通过 非 线 性 核 函数 转换 的 方法 ， 
将 原始 向 量 映射 到 高 维特 征 空间 中 ,然后 在 特征 空 
间 中 进行 线性 主 成 分 变换 ,常见 的 核 函数 有 : 线 
性 核 函 数 、 多 项 式 核 函数 、 高 斯 核 函 数 。KPCA 克服 
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图 1 土壤 有 机 质 (SOM) 采 样 点 分 布 图 


Fig. 1 Distribution map of soil organic matter sampling points 
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了 PCA 方 法 不 能 反映 数据 的 非 线 性 特征 以 及 只 考虑 
二 阶 统计 特性 的 缺陷 ,在 图 像 降 维 局 .生态 评价 2 等 
方面 得 到 广泛 的 应 用 。 

2.2 机 器 学 习 模 型 简介 

2.2.1 随机 森林 ”随机 森林 (REF) 是 Breiman 2 提出 
的 基于 决策 树 的 分 类 回归 算法 , 它 是 利用 bootstrap 
重 抽样 方法 从 原始 数据 集中 随机 抽取 多 个 样本 ,对 
每 个 样本 数据 进行 决策 树 建 模 , 然 后 组 合成 多 棵 决 
策 树 的 预测 模型 ,综合 所 有 决策 树 的 投票 结果 得 到 
模型 的 预测 值 ,具体 算法 步骤 见 文献 ”。 

2.2.2 支持 向 量 回 归 机 文 持 向 量 回归 机 (Support 
vector regression, SVR) 是 基于 VC 维 理论 和 结构 风 
险 最 小 化 原则 ,从 已 知 的 样本 数据 中 获取 最 佳 的 学 
习 模型 。 它 使 用 " 核 技巧 "方法 ,将 低 维特 征 空间 
映射 到 一 个 高 维 其 至 无 穷 维 的 特征 空间 中 ,从 而 使 
用 线性 回归 的 方法 实现 低 维特 征 空间 数据 的 回归 
预测 。 

2.2.3 KRABHA 最 近邻 算法 (KNN) 依 赖 于 
欧 几 里 得 距离 ,通过 距离 排序 选择 K 个 最 近 的 样本 
来 预测 目标 。 

2.3 研究 流程 

主 成 分 提取 ,模型 的 训练 与 测试 分 别 在 Matlab、 
Rstudio 软件 中 进行 ,主要 步骤 包括 : 

(1) 数据 预 处 理 。 为 了 消除 量 纲 ,对 构建 的 
SOM 预测 因子 集合 数据 进行 归 一 化 处 理 ,将 所 有 变 
量 值 域 放 在 相等 的 区 域 汪 。 

(2) 特征 提取 。 运 用 PCA KPCA 分 别 进行 数据 
处 理 , 选 择 累 计 贡 献 率 大 于 85% 的 主 成 分 作为 后 续 
模型 的 输入 特征 数据 。 

(3) 划分 训练 集 、 验 证 集 。 通 过 随机 抽样 的 方 
法 ,按照 7:3 的 比例 划分 训练 集 、 验 证 集 。 

(4) 训练 模型 。 根 据 285 个 训练 样本 ,分 别 调 
用 randomForest、e1071、caret 语 言 包 构建 基于 PCA 
的 PCA-RF、PCA-SVR、PCA-KNN 预测 模型 .基于 
KPCA [i] KPCA-RF,KPCA-SVR , KPCA-KNN 预测 模 
型 。 进 一 步 对 各 模型 参数 进行 遍历 ,根据 10 折 交叉 


ChinaXiv 合 作 期 刊 


主 成 分 和 机 器 学 习 的 土壤 有 机 质 含量 空间 预测 建 模 


验证 结果 选取 参数 最 优 值 。 

(5) 精度 评价 。 采 用 验证 集 测 试 SOM 含 量 预 测 
模型 性 能 ,与 未 进行 主 成 分 分 析 的 RF、SVR KNN 单 
一 预测 模型 对 比分 析 ,实现 对 咸阳 市 农耕 区 SOM 含 
量 的 精准 预测 。 本 文选 择 模型 决定 系数 (Coeffi- 
cient of determination, R°) , 35] 77 #8 ix 2 (Root mean 
square error, RMSE) ) 和 相对 绝对 误差 (Relative abso- 
lute error, RAE) 作 为 土壤 有 机 质 预测 模型 的 评价 
指标 。 


3 结果 与 分 析 


3.1 描述 性 统计 

由 表 1 可 知 ,咸阳 市 SOM 含 量 介 于 6.59~27.80 
g'kg ', 平 均值 为 15.54 gkg', 处 于 《全 国 第 二 次 土 
壤 普 查 养分 分 级 标准 》 的 第 4 级 即 10-20 g- ke, Mb 
于 稍微 缺乏 状态 ;训练 集 、 验 证 集 和 整体 数据 集 除 
了 样 点 数 不 同 ,其 他 各 统计 参量 相差 不 大 ;变异 系 
数 接 近 25.00%, 属 于 中 等 变异 性 。 
3.2 基于 主 成 分 和 机 器 学 习 的 SOM 含量 预测 建 模 

使 用 主 成 分 方法 进行 数据 特征 提取 ,在 保留 大 
部 分 原始 信息 的 同时 ,可 以 降低 变量 间 的 相关 性 。 
基于 407 个 样 点 数据 ,分 析 SOM 含量 与 各 环境 变量 
的 相关 性 不同 环境 变量 之 间 的 相关 程度 。 由 表 2 
可 知 :SOM 含量 与 、X6 呈 显著 的 负 相 关 关 系 (P< 
0.01) , 5 X8, X9, X10 © fb # AY TE AH KK RK (P< 
0.01), 5 X2 X7 两 因子 相关 性 在 0.05 置信 水 平 上 呈 
显著 相关 。 其 中 ,SOM 含量 与 DEM 之 间 相 关 性 最 
强 , 相 关系 数 为 -0.315 ,表明 SOM 含量 随 海 拔 的 升 
高 而 呈 下 降 趋 势 ,不 同 高 度 的 SOM 含量 差异 明显 。 
同时 结果 也 显示 :各 环境 变量 之 间 存 在 相关 性 , 变 
Ht X1 5j X2,X6,X7 , X8 X9 X10 Z HEM E 4H 
(P«0.01) , 与 变量 吧 之 间 有 着 较 强 的 相关 性 (P< 
0.05) ;除了 与 X3、X10 相 关 程 度 较 弱 ,变量 X2 与 其 
他 变量 间 都 旺 显著 相关 性 (P<0.01) ;此 外 ,变量 X3 
与 XY5、X9;X4 与 XY5、X6、X7;X5 与 XY7;X6 与 X7、X8、 


表 1 研究 区 土壤 有 机 质 (SOM) 含 量 的 描述 统计 


Tab.1 Descriptive statistics of soil organic matter content in the study area 


间 标 /个 样 点 数 /个 最 小 值 /g kg" 最 大 值 /g'kg” 
整体 407 6.59 27.80 
训练 集 285 6.59 24.78 
验证 集 122 721 27.80 


平均 值 /g*kg” 标准 差 /g.kg” 变异 系数 /% 
15.54 3.80 24.45 
15.64 3.79 24.23 
15.34 3.84 25.36 
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2 变量 相关 分 析 


Tab.2 Variable correlation analysis 


SOM X1 X2 X3 X4 X5 X6 XT X8 X9 X10 
SOM 1.000 
Xl -0.315" 1.000 
X2 -0.099" 0.3177 1.000 
X3 -0.006 0.123 0.082 1.000 
X4 -0.006 -0.073 0.166” 0.002 1.000 
X5 0.003 -0.016 -0.153”  -0.205"  -0262" 1.000 
X6 -0.130" 0.336” 0.936” 0.058 0.174" -0.074 1.000 
X7 0.101" -0.3407  -0.475" -0.053 0.222"  -0.81 -0.458" 1.000 
X8 0.206  -0417 -0.26 -0.053 -0.057 0.099 -0.229" 0.084 1.000 
X9 0.285"  -0.981 -0.342"  -0.137^ 0.021 0.038 -0.362" 0.306" 0.494" 1.000 
X10 0.204" = -0.235" -0.089 0.004 -0.026 -0.016 —0.063 0.085 0.117 0.185" 1.000 


注 :* 表 示 相 关 性 在 0.05 水 平 上 显著 ,** 表 示 相 关 性 在 0.01 水 平 上 显著 ( 双 


FE) ZEE X1,X2 3 X4 X5 X6 X7 X8 X9 41 X10 479 dee f DE 


度 \ 坡 向 .剖面 曲率 .平面 曲率 、 地 形 起 伏 度 、 地 形 湿度 指数 \ 年 均 降水 量 \ 年 均 气 温和 归 一 化 植被 指数 。 下 同 。 


X9;X7 与 X9;X8 与 X9;X9 与 X10 间 均 在 0.01 置信 水 
平 上 呈 显 著 相 关 。 相 关 性 较 强 ,说明 变量 之 间 存 在 
较 多 的 元 余 信息 ,进一步 表明 对 SOM 预测 建 模 的 10 
个 环境 变量 进行 主 成 分 提取 是 必要 的 。 

利用 Matlab 软件 分 别 实现 对 SOM 预测 因子 集 
合 数据 的 PCA KPCA 2 种 方法 的 降 维 , 同 时 提取 累 
计 贡 献 率 大 于 85.00% 的 主 成 分 ,结果 如 表 3 所 示 。 
表 3 可 以 看 出 ,PCA 提 取出 能 够 反映 原始 变量 
90.00% 信 息 量 的 6 个 主 成 分 ,基本 可 以 概括 原始 变 
量 所 反映 的 信息 ,因此 选择 前 6 个 主 成 分 作为 PCA 
组 合 模型 的 输入 特征 数据 。 巾 主 成 分 载荷 矩阵 可 
知 ( 表 4) : 58 — EM IPG Slope (X2) RDLSCZ6) 存 在 
较 大 相关 性 , 它 反 映 了 不 同 坡度 .起 伏 条 件 下 的 
SOM 含量 差异 ,可 以 概括 为 坡度 因子 ;第 二 主 成 分 
5 DEM (X1) 年 均 气温 (X9) 两 因子 具有 和 较 大 相关 
性 ,反映 了 不 同 高 程 条 件 下 的 气温 差异 对 SOM 含量 


的 分 解 速率 减 慢 致使 SOM 含量 降低 ,概括 为 高 程 气 
温 因子 ;第 三 主 成 分 与 NDVI(CX10) .年 均 降 水 量 
(X8) 存 在 较 大 相关 性 ,概括 为 植被 因子 ;第 四 、 五 主 
成 分 分 别 为 剖面 曲率 .平面 曲率 因子 ;第 六 主 成 分 
与 Aspect(X3) 具 有 较 大 相关 性 ,概括 为 坡 向 因子 。 
不 同 坡 向 下 的 光照 温度 .水 分 状况 有 差异 ,影响 微 
生物 活动 与 养分 积累 。 相 比 之 下 , 当 核 函数 为 多 项 
式 核 函 数 时 ,KPCA 可 以 提取 出 累计 贡献 率 达 到 
97.99% 的 2 个 主 成 分 ,综合 考虑 因子 间 相 关 性 和 主 
成 分 方差 贡献 率 , 认 为 这 2 个 主 成 分 包含 了 绝 大 部 
分 的 原始 信息 量 , 故 选择 前 2 个 主 成 分 作为 KPCA 
组 合 模型 的 输入 特征 数据 。 

基于 PCA 、KPCA 2 种 主 成 分 提取 方法 构建 的 
SOM 含量 预测 模型 的 输入 特征 数据 ,对 RF.SVR, 
KNN 模 型 分 别 进行 训练 ,构建 相对 应 的 主 成 分 和 机 
器 学 习 组 合 模型 。 不 同 参 数 的 选取 对 模型 的 学 习 


的 影响 ,气温 随 着 海拔 的 升 高 而 逐渐 降低 ,微生物 


表 3 各 主 成 分 的 贡献 率 


Tab.3 Contribution ratio of each principal component factor 


性 能 和 预测 精度 有 重要 的 


影响 ,参数 的 过 大 过 小 都 


Xu 主 成 分 分 析 (PCA) 核 主 成 分 分 析 (KPCA) 
特征 值 页 献 率 /% 累积 贡献 率 /% 贡献 率 /% 累积 贡献 率 /% 
1 3.22 32.21 32.21 82.41 82.41 
2 1.63 16.28 48.48 15.58 97.99 
3 1.45 14.48 62.97 - - 
4 IBI 11.06 74.03 - - 
5 0.93 9.28 83.31 - = 
6 0.67 6.69 90.00 - - 
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于 主 成 分 和 机 咒 学 习 的 土壤 有 机 质 含量 空间 预测 建 模 


表 4 主 成 分 分 析 (PCA) 载 荷 矩 阵 


Tab.4 Principal component analysis load matrix 


"A 主 成 分 
1 2 3 4 5 6 

X1 0.198 -0.952 0.001 -0.063 0.011 0.057 
X2 0.935 -0.148 -0.113 0.113 -0.127 0.016 
X3 0.031 -0.077 -0.019 -0.003 -0.106 0.987 
X4 0.093 0.029 -0.067 0.953 -0.104 0.006 
X5 -0.037 0.015 0.061 -0.122 0.972 -0.111 
X6 0.925 -0.180 -0.074 0.149 -0.048 -0.006 
X7 -0.672 0.187 -0.071 0.404 -0.247 -0.074 
X8 -0.063 0.539 0.653 -0.007 0.072 0.043 
X9 -0.203 0.962 0.055 0.009 0.005 -0.063 
X10 -0.069 -0.075 0.919 -0.077 0.032 -0.041 


SSSR MARRA AL HE 2b 8 1 
选择 各 模型 的 重要 参数 ,根据 10 折 交叉 验证 结果 确 
定 最 优 值 ( 表 5)。RF 组 合 模 型 中 确立 的 重要 参数 
包括 有 决策 树 数量 (ntree) 和 每 棵 决策 树 包括 的 特 
征 数 (mtry) ; SVR 组合 模 型 在 选择 性 能 最 优 的 radial 


(图 2)。 由 图 2 来 看 :(1) 各 模型 预测 结果 整体 上 均 
呈现 南 高 北 低 的 分 布 特征 ,SOM 含量 的 空间 变化 能 
够 有 效 地 反映 地 形 地 势 信息 ,基本 表现 为 南部 平原 
区 SOM 含量 高 于 北部 高 原 、 山 地 区 ,不 同 模型 对 
SOM 含量 的 空间 变异 趋势 有 较 好 的 展示 。(2) PCA 
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核 函 数 时 ,遍历 选取 初始 化 超 参 数 松 弛 变量 系数 
(C) 和 高 斯 核 国 数 系数 (gamma) 的 最 优 值 。KNN 组 
合 模型 建立 过 程 中 需要 确立 参数 天 的 值 :如 果 天 值 
过 小 ,异常 的 噪声 点 会 对 预测 值 产生 较 大 的 误差 ; 
过 大 的 天 值 则 会 导致 模型 过 于 简单 ,学 习 的 近似 误 
差 增 大 。 
3.3 SOM 空间 分 布 预 测 结果 

利用 训练 好 的 预测 模型 对 研究 区 农耕 区 的 
SOM 含量 进行 预测 ,生成 咸阳 市 SOM 空间 分 布 图 


#5 模型 参数 设 定 
Tab.S Model parameter setting 


模型 参数 设 定 
PCA-RF ntree=1300 .mtry=3 
KPCA-RF ntree=1300 ,mtry-2 
PCA-SVR radial 核 函数 .C=1000 .gramma=0.1 
KPCA-SVR radial 4% PAL .C=1000 .gramma=0.01 
PCA-KNN K=11 
KPCA-KNN K=3 


注 :PCA-RF 为 主 成 分 分 析 - 随 机 森林 组 合 模型 ;KPCA-RF 为 核 主 成 
分 分 析 - 随 机 森林 组 合 模型 ;PCA-SVR 为 主 成 分 分 析 - 支 持 向 量 回 
归 机 组 合 模型 ;KPCA-SVR 为 核 主 成 分 分 析 - 支 持 向 量 回归 机 组 合 
模型 ;PCA-KNN 为 主 成 分 分 析 -K 最 近邻 组 合 模 型 ;KPCA-KNN 为 
核 主 成 分 分 析 -K 最 近邻 组 合 模型 。ntree 为 决策 树 数量 ;mtry 为 每 
棵 决策 树 包 括 的 特征 数 ;C 为 初始 化 超 参 数 松弛 变量 系数 ;gramma 
为 高 斯 核 函 数 系数 ;K 为 KNN 模 型 参数 。 下 同 。 


组 合 模型 预测 结果 高 值 区 和 低 值 区 存在 一 定 程度 
的 “ 跳 变 ” ,尤其 突出 表现 在 山地 区 同一 位 置 的 山谷 
Ej LEER PCS, V 平原 区 与 高 原 区 过 渡 区 域 ; 相 比 之 下 ， 
KPCA 组 合 模 型 预测 结果 空间 上 更 为 平滑 ,对 于 平 
原 区 SOM 含 量变 化 能 够 精细 的 呈现 ,更 加 符合 实际 
情况 。 这 种 差异 性 很 大 程度 上 反映 了 PCA KPCA 2 
种 主 成 分 提取 方法 的 差异 。PCA 方法 提取 的 主 成 
分 承载 了 过 多 易 发 气 的 线性 地 形 信息 ,致使 模型 预 
测 结果 与 地 形 信息 的 过 度 拟 合 现象 ,(3) KPCA-SVR 
模型 预测 结果 空间 变异 程度 较 大 ,难以 反映 SOM 含 
量 局 部 变异 情况 ;KPCA-RF KPCA-KNN 模型 对 于 
展示 SOM 含量 空 间 变 化 .预测 SOM 空 间 分 布 具 有 较 
好 的 预测 效果 。 
3.4 预测 精度 评价 

为 了 进一步 比较 各 组 合 模型 的 预测 效果 ,选择 
未 进行 主 成 分 分 析 的 RF、SVR 和 KNN 单一 模型 作 
为 对 比 ,对 相同 的 数据 集 进行 模型 训练 和 验证 , 结 
果 如 表 6 所 示 。 对 比 发 现 :PCA-RF 组 合 模型 预测 精 
度 较 RF 模 型 提高 ,决定 系数 尼 提 高 了 0.023,RMSE、 
RAE 误差 值 分别 降 低 了 0.070 g- kg ' , 2.440% ;而 
PCA-SVR PCA-KNN 2 个 预测 模型 较 单 一 模型 优化 
效果 并 不 理想 。KPCA-RF 组合 模 型 较 RF 模 型 精度 
JE F , R’, RMSE, RAE 分 别 为 0.791、1.970 g+ kg, 
50.100% ,与 单一 RF 模型 相 比 ,3 个 指标 分 别 优 化 了 
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(a) PCA-RF 


(b) PCA-SVR 
Tit (Eg kg? 
高 : 19.908 


, E MR: 11.754 


(d) KPCA-RF 
预测 值 /g.kg-! 
高 : 23.261 


低 : 9.981 


(c) PCA-KNN 


预测 值 /g-kg-! 
高 : 22.467 


预测 值 /g-kg! 
高 : 19.823 


低 : 12.716 


(f) KPCA-KNN 
预测 值 /g-kg-! 
高 : 26.490 


预测 值 /g-kg"! 


高 : 20.790 
S c L| 低 : 11.735 
Ra 


HE: PCA-RF 为 主 成 分 分 析 - 随 机 森林 组 合 模型 ;KPCA-RF 为 核 主 成 分 分 析 -随机 森林 组 合 模型 ;PCA-SVR 为 主 成 分 分 析 - 支 持 向 量 回 归 机 组 合 
模型 ;KPCA-SVR 为 核 主 成 分 分 析 - 支 持 向 量 回归 机 组 合 模型 ;PCA-KNN 为 主 成 分 分 析 -K 最 近邻 组 合 模型 ;KPCA-KNN 为 核 主 成 分 分 析 -K 最 
近邻 组 合 模型 。 


2 土壤 有 机 质 (SOM) 


含量 空间 分 布 预测 图 


Fig.2 Prediction of spatial distribution of soil organic matter 


表 6 模型 预测 精度 评价 表 


Tab. 6 Model accuracy verification table 


模型 R RMSE/g- kg"! RAE/% 
PCA-RF 0.739 2.090 49.473 
KPCA-RF 0.791 1.970 50.100 
RF 0.716 2.160 51.913 
PCA-SVR 0.479 2.936 66.718 
KPCA-SVR 0.561 2.361 51.302 
SVR 0.557 2.783 53.072 
PCA-KNN 0.463 2.821 70.273 
KPCA-KNN 0.507 2.676 66.079 
KNN 0.490 2.744 68.553 


注 :RF 为 随机 森林 ;SVR 为 支持 向 量 回归 机 ;KNN 为 K 最 近邻 ; 尼 、 
RMSE 和 RAE 分 别 表示 决定 系数 、 均 方 根 误差 和 相对 绝对 误差 。 
0.075,0.190 g» kg ' , 1.813906; KPCA-SVR,KPCA-KNN 
组 合 模型 预测 精度 较 单 一 SVR KNN 模型 提高 。 表 
明 采 用 主 成 分 提取 方法 和 机 器 学 习 构 建 SOM 含量 
预测 组 合 模型 能 够 消除 数据 间 宛 余 和 相关 性 ,在 一 
定 程度 上 可 以 提高 模型 预测 精度 。 同 时 发 现 :KP- 
CA 组 合 模型 的 SOM 含 量 预 测 模型 精度 高 于 相应 的 


PCA 组 合 模 型 ,这 充分 展示 了 KPCA 在 降低 原始 变 
量 维 度 , 处 理 数据 间 非 线性 关系 的 优势 性 能 。 综 合 
来 看 ,KPCA-RF 模 型 对 SOM 含 量 预 测 精度 高 于 其 他 
模型 ,该 模型 对 于 咸阳 市 农耕 区 SOM 含 量具 有 较 好 
的 预测 效果 ,可 以 为 SOM 空 间 预 测 与 数字 制图 提供 
科学 依据 。 


4 讨论 


机 器 学 习 方法 在 土壤 养分 空间 预测 中 具有 巨 
大 的 潜力 , 主 成 分 提取 方法 可 以 有 效 解 决 高 变量 维 
度 小 样本 量 的 数据 分 析 问 题 。 已 有 研究 表明 ,组合 
主 成 分 提取 方法 和 机 器 学 习 算法 可 以 有 效 提升 模 
型 精度 ,优化 模型 性 能 ””。 本 文 利用 PCA 线性 提 
取 方 法 .KPCA 非 线 性 提取 方法 与 RF SVR .KNN 模 
型 组 合 构成 6 种 组 合 预测 模型 ,使 用 10 折 交叉 验 
证 ,比较 了 不 同 组 合 模型 对 SOM 含 量 预 测 性 能 。 在 
本 人 研究 中 ,使 用 较 少 的 主 成 分 即 达 到 较为 满意 的 预 
测 精 度 , 主 成 分 提取 方法 有 效 降 低 了 数据 相关 性 ， 
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提升 了 模型 精度 。 对 比 发 现 ,KPCA 方 法 考虑 了 数 
据 间 的 非 线 性 关系 ,相应 的 组 合 模 型 预测 精度 优 于 
PCA 组 合 模型 。 在 本 文 研究 的 6 种 组 合 模 型 中 ,KP- 
CA-RF 预 测 精度 最 高 ,可 以 应 用 于 SOM 空间 预测 制 
图 ,如 许 奋 花 等 ?对 风电 场 功率 预测 的 研究 也 证 明 
T KPCA-RF 具有 较 高 的 准确 性 。 但 是 值得 关注 的 
是 ,KPCA 方 法 自身 也 存在 着 一 些 问 题 , EP PR 
数 非 线 性 映射 后 的 矩阵 很 难 用 物理 意义 解释 。 其 
次 ,KPCA 计算 量 只 决定 于 数据 集 的 大 小 ,样本 点 较 
大 时 带 来 的 核 矩 阵 维 数 较 大 ,造成 计算 量 增加 , 建 
议 从 样本 集中 选择 有 代表 性 的 学 习 样 本 来 降低 核 
AB V AIC, CUR BS Zr SOUS C RICH PCA 77 1, 
模糊 C-35 (ELI E FE TEUE E, 

基于 最 优 模 型 KPCA-RF 模 型 预测 得 到 咸阳 市 
SOM 含 量 均值 为 15.56+1.96 g.kg ,整体 上 与 样 点 统 
计 结 果 保 持 一 致 。SOM 空间 分 布 呈 现 南 部 较 高 AL 
部 较 低 ,这 与 任 丽 汪 、 赵 叶 婷 汪 等 在 该 地 区 的 研究 
结果 一 致 ,这 种 差异 主要 是 受 地 形 条 件 影响 造成 
的 。 南 部 为 关中 平原 区 ,海拔 较 低 且 地 形 平坦 , 北 
部 海拔 较 高 ,地形 条 件 复 杂 。 关 中 平原 区 长 久 以 来 
稳定 的 农业 生产 保证 了 SOM 一 直 处 于 相对 较 高 的 
水 平 , 相 比 之 下 ,北部 地 区 复杂 的 地 形 条 件 和 气候 
条 件 对 农业 生产 造成 了 很 大 的 困难 。 此 外 , 随 着 海 
拔 的 升 高 ,SOM 存在 明显 的 降低 趋势 ,这 主要 是 因 
为 从 高 海拔 表土 冲刷 而 来 的 SOM 在 低 海拔 沉积 , 同 
时 受 水 蚀 作用 影响 ,土壤 蕃 水 保 肥 能 力 降 低 ”。 

言 息 科学 与 数据 科学 的 发 展 使 得 人 们 获取 精 
准 农 业 信 息 成 为 可 能 ,协同 多 源 环 境 变量 的 诸多 机 
器 学 习 算法 在 揭示 SOM 空间 变异 与 空间 制图 方面 
得 到 了 广泛 的 应 用 。SOM 空间 变异 是 自然 环境 与 
人 类 活动 综合 作用 结果 ,自然 环境 因子 易于 空间 化 
而 被 广泛 应 作 建 模 指 标 , 人 类 活动 因子 因 不 具备 空 
间 连 续 性 难以 参与 模型 训练 ,进一步 的 研究 方向 应 
探讨 解决 人 为 因子 空间 化 的 问题 。 通 过 对 采样 点 
数据 不 同人 类 管理 措施 下 的 SOM 含量 统计 发 现 , 不 
同 种 植 制度 ,灌溉 条 件 下 SOM 含 量 差异 明显 ,表明 
了 人 为 管理 措施 是 SOM 空间 变异 研究 中 不 可 忽略 
的 方面 中 。 特 别 是 在 县 、 乡 等 更 小 尺度 上 的 研究 
中 ,人 类 耕作 方式 与 强度 对 SOM 含量 的 差异 影响 较 
大 “3, 仅 依 靠 自 然 环境 变量 很 难 实现 精准 预测 。 
因此 ,人 为 因子 的 采集 与 空间 量化 对 于 提升 模型 精 
度 有 重要 的 意义 。 


5 结 


yr 
ww 


本 文 提出 和 构建 了 基于 主 成 分 和 机 器 学 习 的 
土壤 养分 含量 空间 预测 模型 ,并 在 咸阳 市 农耕 区 
SOM 含量 的 空间 预测 中 取得 了 较 好 的 应 用 效果 。 
主要 结论 如 下 : 

(1) 使 用 PCA 、KPCA 2 种 主 成 分 提取 方法 , SE 
现 了 数据 降 维 ,消除 了 变量 间 的 相关 性 和 宛 余 性 ， 
有 利于 提升 土壤 养分 含量 预测 模型 的 精度 和 稳 
定性 。 

(2) 基于 KPCA 特征 提取 和 机 需 学 习 算 法 的 组 
合 预 测 模型 与 单一 预测 模型 PCA 组 合 模型 相 比 ， 
预测 精度 较 高 ,能 够 很 好 的 拟 合 土壤 养分 含量 与 环 
境 变量 之 间 的 非 线 性 关系 。 

(3) 构建 的 KPCA-RF 组 合 模 型 与 KPCA-SVR 
等 其 他 模型 相 比 ,模型 评价 指标 决定 系数 、 均 方 根 
误差 和 相对 绝对 误差 分 别 为 0.791、1.970 g:kg! 和 
50.100%, 优 于 其 他 预测 模型 。 该 模型 对 咸阳 市 农 
BEX SOM 含量 的 预测 取得 了 良好 的 效果 ,可 以 进 一 
步 运用 到 其 余 土 壤 养分 的 精准 预测 与 地 力 评 价 中 。 
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Abstract: Spatial prediction models of soil nutrients are constructed from collaborative environment variables 
and machine learning regression models; they are of great significance for accurate nutrient management, but the 
information redundancy and correlation among multidimensional variables can lead to problems such as a long 
training time for the model and low prediction accuracy. In this study, the farming area of Xianyang City, Shaanxi 
Province, China, was taken as an example, and 10 environmental variables were selected: the elevation, aspect, 
slope, plane curvature, section curvature, relief, topographic wetness index, annual average temperature, annual 
average precipitation, and normalized difference vegetation index. Features were extracted by principal 
component analysis (PCA) and kernel PCA (KPCA), which were combined with the random forest (RF), support 
vector regression (SVR), and K nearest neighbor (KNN) models to develop spatial prediction models for the soil 
organic matter (SOM). Single models were used as the control. Then, the prediction accuracy of different models 
was evaluated according to the model determination coefficient (R’), root-mean-squared error (RMSE), and relative 
absolute error (RAE). The following results were obtained: (1) PCA and KPCA reduced the data dimensionality, 
which eliminated the correlation and redundancy between variables and helped improve the accuracy and 
stability of the SOM spatial prediction model. (2) The PCA-RF model had a higher prediction accuracy than the 
RF model (R’ increased by 0.023, RMSE and RAE decreased by 0.070 g-kg ' and 2.440%, respectively), whereas 
PCA-SVR and PCA-KNN performed worse than SVR and KNN alone. (3) The KPCA-RF model had higher 
accuracy than the RF model (R°, RMSE, and RAE were 0.791, 1.970 g- kg ', and 50.100%, respectively). The 
KPCA-SVR and KPCA-KNN models had better prediction accuracies than the SVR and KNN models. (4) The 
combined prediction model based on KPCA feature extraction and machine learning had higher prediction 
accuracy than the PCA-based combined prediction models and single prediction models and fitted well to the 
nonlinear relationship between the SOM content and environmental variables. The KPCA-RF model performed better 
than the other prediction models. This model accurately predicted the SOM content in the agricultural area of 
Xianyang City, and it can be further applied to accurately predicting other soil nutrients and evaluating soil 
fertility. 
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